# -*- coding: utf-8 -*-
# @Time: 2025/6/29 21:49
# @Author: wzd
# @Email: 2146333089@qq.com
# @File: main.py

from unstructured.partition.pdf import partition_pdf

# 解析PDF（自动处理扫描件）
elements = partition_pdf(
    filename="财务报告.pdf",
    strategy="auto",          # 自动选择最佳解析策略
    languages=["chi_sim"],    # 指定中文OCR
    extract_images_in_pdf=False,  # 不提取图片（节省资源）
    infer_table_structure=True,   # 解析表格结构
    max_characters=3000,      # 每块最大字符数
    new_after_n_chars=1500    # 分块阈值
)

# 提取结构化内容
for element in elements:
    if hasattr(element, "text"):
        print(f"[{element.category}] {element.text}")
    if "Table" in str(element):
        print(f"表格内容:\n{element.metadata.text_as_html}")